基于pytorch的MNIST数据集的四层CNN,测试准确率99.77%

MNIST数据集

MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面来介绍一下.

MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它包含了四个部分:
Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本)
Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签)
Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本)
Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签)

MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据.

环境配置

python 3.7.6,GPU版PyTorch 1.7.1,torchvision 0.8.2,CUDA 10.1
cuDNN 7.6.5

文件存储结构

1---代码文件
1---mnist													文件夹
	2---MNIST													文件夹
		3---processed												文件夹
			4---test.pt															文件
			4---training.pt													文件
		3---raw															文件夹
			4---t10k-images-idx3-ubyte								文件
			4---t10k-labels-idx1-ubyte								文件
			4---train-images-idx3-ubyte							文件
			4---train-labels-idx1-ubyte								文件

代码

引入库

	import torch
	import torchvision
	from torch.utils.data import DataLoader
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.optim as optim
	from torch.optim import lr_scheduler
	import matplotlib.pyplot as plt
	from PIL import Image
	import matplotlib.image as image
	import cv2
	import os

调用GPU

#调用GPU
os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"
torch.backends.cudnn.benchmark = True
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)
torch.cuda.empty_cache()

初始化变量

#初始化变量
n_epochs = 100 #训练次数
batch_size_train = 240 #训练的 batch_size
batch_size_test = 1000 #测试的 batch_size
learning_rate = 0.001 # 学习率
momentum = 0.5 # 在梯度下降过程中解决mini-batch SGD优化算法更新幅度摆动大的问题,使得收敛速度更快
log_interval = 10 # 操作间隔
random_seed = 2 # 随机种子,设置后可以得到稳定的随机数
torch.manual_seed(random_seed)

导入数据集并进行数据增强

数据增强是对数据集中的图片进行平移旋转等变换。数据增强只针对训练集,使训练集的图片更具有多样性,让训练出来的模型的适应性更广。使用数据增强会使训练准确率下降,但是可以有效提高测试准确率。

#导入训练集并增强数据
train_loader = torch.utils.data.DataLoader(
    torchvision.datasets.MNIST('./mnist/', train=True, download=False,
                               transform=torchvision.transforms.Compose([
                                   torchvision.transforms.RandomAffine(degrees = 0,translate=(0.1, 0.1)),
                                   torchvision.transforms.RandomRotation((-10,10)),#将图片随机旋转(-10,10)度
                                   torchvision.transforms.ToTensor(),# 将PIL图片或者numpy.ndarray转成Tensor类型
                                   torchvision.transforms.Normalize((0.1307,), (0.3081,))])
                              ),
    batch_size=batch_size_train, shuffle=True,num_workers=4, pin_memory=True) # shuffle如果为true,每个训练epoch后,会将数据顺序打乱

导入测试集

#导入测试集
test_loader = torch.utils.data.DataLoader(
    torchvision.datasets.MNIST('./mnist/', train=False, download=False,
                               transform=torchvision.transforms.Compose([
                                   torchvision.transforms.ToTensor(),
                                   torchvision.transforms.Normalize((0.1307,), (0.3081,))])
                              ),
    batch_size=batch_size_test, shuffle=True,num_workers=4, pin_memory=True)

加载测试集

# 用 enumerate 加载测试集
examples = enumerate(test_loader)
# 获取一个 batch
batch_idx, (example_data, example_targets) = next(examples)
# 查看 batch 数据,有10000张图像的标签,tensor 大小为 [1000, 1, 28, 28]
# 即图像为 28 * 28, 1个颜色通道(灰度图), 1000张图像
#print(example_targets)
#print(example_data.shape)

查看部分图片

#查看部分图片
fig = plt.figure()
for i in range(6):
    plt.subplot(2,3,i+1)# 创建 subplot
    plt.tight_layout()
    plt.imshow(example_data[i][0], cmap='gray', interpolation='none')
    plt.title("Label: {}".format(example_targets[i]))
    plt.xticks([])
    plt.yticks([])
plt.show()

model结构

#model
class CNNModel(nn.Module):
    def __init__(self):
        super(CNNModel, self).__init__()
        
        # Convolution layer 1 ((w - f + 2 * p)/ s ) + 1
        self.conv1 = nn.Conv2d(in_channels = 1 , out_channels = 32, kernel_size = 5, stride = 1, padding = 0 )
        self.relu1 = nn.ReLU()
        self.batch1 = nn.BatchNorm2d(32)
        
        self.conv2 = nn.Conv2d(in_channels =32 , out_channels = 32, kernel_size = 5, stride = 1, padding = 0 )
        self.relu2 = nn.ReLU()
        self.batch2 = nn.BatchNorm2d(32)
        self.maxpool1 = nn.MaxPool2d(kernel_size = 2, stride = 2)
        self.conv1_drop = nn.Dropout(0.25)

        # Convolution layer 2
        self.conv3 = nn.Conv2d(in_channels = 32, out_channels = 64, kernel_size = 3, stride = 1, padding = 0 )
        self.relu3 = nn.ReLU()
        self.batch3 = nn.BatchNorm2d(64)
        
        self.conv4 = nn.Conv2d(in_channels = 64, out_channels = 64, kernel_size = 3, stride = 1, padding = 0 )
        self.relu4 = nn.ReLU()
        self.batch4 = nn.BatchNorm2d(64)
        self.maxpool2 = nn.MaxPool2d(kernel_size = 2, stride = 2)
        self.conv2_drop = nn.Dropout(0.25)

        # Fully-Connected layer 1
        
        self.fc1 = nn.Linear(576,256)
        self.fc1_relu = nn.ReLU()
        self.dp1 = nn.Dropout(0.5)
        
        # Fully-Connected layer 2
        self.fc2 = nn.Linear(256,10)
                
    def forward(self, x):
        # conv layer 1 的前向计算,3行代码
        out = self.conv1(x)
        out = self.relu1(out)
        out = self.batch1(out)
        
        out = self.conv2(out)
        out = self.relu2(out)
        out = self.batch2(out)
        
        out = self.maxpool1(out)
        out = self.conv1_drop(out)

        # conv layer 2 的前向计算,4行代码
        out = self.conv3(out)
        out = self.relu3(out)
        out = self.batch3(out)
        
        out = self.conv4(out)
        out 
  • 36
    点赞
  • 133
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
### 回答1: PyTorch可以用来训练和测试MNIST数据集的模型,实现手写数字的识别。MNIST数据集包含了60000张训练图片和10000张测试图片,每张图片都是28x28的灰度图像。我们可以使用PyTorch提供的数据加载器来读取数据集,然后使用卷积神经网络CNN)或全连接神经网络(FCN)来训练模型。训练完成后,我们可以使用测试集来评估模型的准确率。 ### 回答2: PyTorch 是一种基于 Python 的开源机器学习库,可以帮助我们构建神经网络模型来识别 MNIST 手写数字数据集MNIST 是一个广泛使用的手写数字数据集,由于其简洁和易于使用的特点,在计算机视觉中被视为基准测试。 使用 PyTorch 来识别 MNIST 数据集涉及以下步骤: 1. 数据预处理:MNIST 中的图像为 28X28 像素,灰度格式。我们需要将其转换为张量并进行标准化以进行内部使用。 2. 构建网络模型:我们可以使用 PyTorch 来定义模型的架构。通常,我们会选择使用具有两个或三个隐藏层的全连接神经网络结构。我们可以在 PyTorch 中定义网络层、激活函数以及输出层。 3. 训练模型:随机初始化模型参数后,我们可以通过前向传递来计算损失函数的值并使用反向传播来更新参数。使用 PyTorch 来训练模型通常需要定义优化器、损失函数和学习率等超参数。 4. 模型评估:在训练好模型之后,我们将使用测试数据集进行评估。我们可以计算模型的精度,将其与其他算法进行比较以及可视化模型输出结果。 通过 PyTorch,我们可以轻松地创建和训练各种神经网络模型,并说服自己的模型有效地区分出手写数字数据集中的不同数字。 总而言之,PyTorch 是一个非常强大的机器学习库,可以让我们轻松构建和训练神经网络,从而识别 MNIST 数据集中的手写数字。与传统方法相比,这种方法的优点在于可以轻松地编写和修改代码以及可视化结果,以便更好地理解模型如何进行判断。 ### 回答3: PyTorch是一种Python深度学习框架,可以帮助我们更轻松地从事深度学习。使用PyTorch可以实现各种机器学习和深度学习模型,其中也包括识别MNIST数据集MNIST数据集是一个手写数字图像数据集,包含60,000个训练样本和10,000个测试样本。每张图像都是一个28×28像素的灰度图像,每个像素的值介于0~255之间。 下面是使用PyTorch识别MNIST数据集的步骤: 1. 导入必要的库 导入PyTorchMNIST数据集并进行数据预处理。 ```python import torch import torchvision.datasets as datasets from torchvision.transforms import transforms # 转换MNIST数据集为Tensor类型 transform = transforms.Compose([ transforms.ToTensor(), # 将图像转换为Tensor类型 transforms.Normalize((0.1307,), (0.3081,)) # 做归一化 ]) # 加载并预处理训练集 train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True) # 加载并预处理测试集 test_dataset = datasets.MNIST(root='./data', train=False, transform=transform, download=True) ``` 2. 定义模型 定义一个简单的卷积神经网络(Convolutional Neural Network, CNN),包含两个卷积层和两个全连接层。 ```python class Net(torch.nn.Module): def __init__(self): super(Net, self).__init__() # 定义卷积层和全连接层 self.conv1 = torch.nn.Conv2d(1, 32, kernel_size=5, padding=2) self.conv2 = torch.nn.Conv2d(32, 64, kernel_size=5, padding=2) self.fc1 = torch.nn.Linear(64*7*7, 1024) self.fc2 = torch.nn.Linear(1024, 10) self.dropout = torch.nn.Dropout(0.5) def forward(self, x): # 卷积层 x = self.conv1(x) x = torch.nn.functional.relu(x) x = torch.nn.functional.max_pool2d(x, 2) # 卷积层 x = self.conv2(x) x = torch.nn.functional.relu(x) x = torch.nn.functional.max_pool2d(x, 2) # 全连接层 x = x.view(-1, 64*7*7) x = self.fc1(x) x = torch.nn.functional.relu(x) x = self.dropout(x) # 全连接层 x = self.fc2(x) return torch.nn.functional.softmax(x, dim=1) ``` 3. 训练模型 定义损失函数和优化器来训练模型。 ```python # 定义损失函数和优化器 criterion = torch.nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.01) # 训练模型 for epoch in range(10): for i, (images, labels) in enumerate(train_loader): # 将数据加载到GPU上 images = images.to(device) labels = labels.to(device) # 正向传播 outputs = model(images) loss = criterion(outputs, labels) # 反向传播和优化 optimizer.zero_grad() loss.backward() optimizer.step() print('Epoch [{}/{}], Loss: {:.4f}' .format(epoch+1, 10, loss.item())) ``` 4. 测试模型 对测试集进行评估。 ```python # 测试模型 with torch.no_grad(): correct = 0 total = 0 for images, labels in test_loader: # 将数据加载到GPU上 images = images.to(device) labels = labels.to(device) # 正向传播 outputs = model(images) # 获取预测结果 _, predicted = torch.max(outputs.data, 1) # 统计正确率 total += labels.size(0) correct += (predicted == labels).sum().item() print('Test Accuracy: {:.2f} %'.format(100 * correct / total)) ``` 通过以上步骤,我们便可以使用PyTorch实现MNIST数据集的识别任务。其中,我们需要对数据集进行预处理,定义CNN模型,训练模型并评估模型准确率。通过这些步骤,我们可以更好地理解深度学习框架在实际应用中的使用方法并且对深度学习有更深入的理解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

eye_s1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值